1
Evolução das Arquiteturas de MLLM: Do Foco em Visão para Integração Multissensorial
AI012Lesson 7
00:00

Evolução das Arquiteturas de MLLM

A evolução dos Modelos de Linguagem de Grande Escala Multimodal (MLLMs) marca uma mudança dos silos específicos por modalidade para Espaços de Representação Unificados, onde sinais não textuais (imagens, áudio, 3D) são traduzidos para uma linguagem que o modelo de linguagem entende.

1. Da Visão para Multissensorial

  • MLLMs Iniciais:Focavam-se principalmente nos Transformadores de Visão (ViT) para tarefas de imagem-texto.
  • Arquiteturas Modernas:Integram Áudio (por exemplo, HuBERT, Whisper) e Nuvens de Pontos 3D (por exemplo, Point-BERT) para alcançar uma inteligência verdadeiramente cruzada entre modalidades.

2. A Ponte de Projeção

Para conectar diferentes modalidades ao modelo de linguagem, é necessária uma ponte matemática:

  • Projeção Linear:Uma mapeamento simples usado em modelos iniciais como o MiniGPT-4.
    $$X_{llm} = W \cdot X_{modality} + b$$
  • MLP de Múltiplas Camadas:Um método de duas camadas (por exemplo, LLaVA-1.5) que oferece uma melhor alinhamento de características complexas por meio de transformações não lineares.
  • Redimensionadores/Abstratores:Ferramentas avançadas como o Redimensionador Perceiver (Flamingo) ou o Q-Former que condensam dados de alta dimensão em tokens de comprimento fixo.

3. Estratégias de Decodificação

  • Tokens Discretos:Representando saídas como entradas específicas no dicionário (por exemplo, VideoPoet).
  • Embeddings Contínuos:Usando sinais "suaves" para guiar geradores especializados na fase posterior (por exemplo, NExT-GPT).
A Regra da Projeção
Para que um modelo de linguagem processe um som ou um objeto 3D, o sinal deve ser projetado no espaço semântico existente do modelo de linguagem, para que seja interpretado como um "sinal de modalidade" e não como ruído.
alignment_bridge.py
TERMINALbash — 80x24
> Ready. Click "Run" to execute.
>
Question 1
Which projection technique is generally considered superior to a simple Linear layer for complex modality alignment?
Token Dropping
Two-layer MLP or Resamplers (e.g., Q-Former)
Softmax Activation
Linear Projection
Question 2
What is the primary role of ImageBind or LanguageBind in this architecture?
To generate text from images
To compress video files
To create a Unified/Joint representation space for multiple modalities
To increase the LLM context window
Challenge: Designing an Any-to-Any System
Diagram the flow for an MLLM that takes an Audio input and generates a 3D model.
You are tasked with architecting a pipeline that allows an LLM to "listen" to an audio description and output a corresponding 3D object. Define the three critical steps in this pipeline.
Step 1
Select the correct encoder for the input signal.
Solution:
Use an Audio Encoder such as Whisper or HuBERT to transform the raw audio waves into feature vectors.
Step 2
Apply a Projection Layer.
Solution:
Pass the audio feature vectors through a Multi-layer MLP or a Resampler to align them with the LLM's internal semantic space (dimension matching).
Step 3
Generate and Decode the output.
Solution:
The LLM processes the aligned tokens and outputs "Modality Signals" (continuous embeddings or discrete tokens). These signals are then passed to a 3D-specific decoder (e.g., a 3D Diffusion model) to generate the final 3D object.